小模型训练效率狂飙100倍!Thinking Machine推“在线策略蒸馏”,OpenAI前CTO亲自点赞
近日,AI新锐团队Thinking Machine发布突破性训练方法——在线策略蒸馏(On-Policy Distillation),让小模型在特定任务上的训练效率提升高达50至100倍。该成果一经公布,即获前OpenAI首席技术官Mira Murati亲自转
machine thinki thinkingmachine 2025-10-28 12:23 2
近日,AI新锐团队Thinking Machine发布突破性训练方法——在线策略蒸馏(On-Policy Distillation),让小模型在特定任务上的训练效率提升高达50至100倍。该成果一经公布,即获前OpenAI首席技术官Mira Murati亲自转
machine thinki thinkingmachine 2025-10-28 12:23 2
根据Mira Murati的提炼,原来他们提出了一种让小模型更懂专业领域的LLM(大语言模型)后训练方法——On-Policy Distillation (在线策略蒸馏)。
machine rl thinkingmachine thi 2025-10-28 10:13 4
根据Mira Murati的提炼,原来他们提出了一种让小模型更懂专业领域的LLM(大语言模型)后训练方法——On-Policy Distillation (在线策略蒸馏)。
machine rl thinkingmachine thi 2025-10-28 09:26 1